#Rubin CPX

5个月前

英伟达发布Rubin CPX GPU，专为长上下文推理打造昨天白天我们还在聊128GB GDDR7的5090，还在质疑是不是真的，晚上就来了真正128GB GDDR7的Rubin CPX。这也侧面呼应了前两天业内反馈三星收单收到手软，大幅度提升GDDR7产能的事实。对，英伟达昨天深夜发布全新GPU：NVIDIA Rubin CPX，这是一款专门面向长上下文AI推理的新型处理器，旨在支持百万级Token的软件开发、生成式视频以及深度研究等复杂任务。 Rubin CPX将与NVIDIA Vera CPU及下一代Rubin GPU协同，组成全新的NVIDIA Vera Rubin NVL144 CPX集成平台。该平台在单机柜内可提供高达8 exaflops的AI算力，性能较现有GB300 NVL72系统提升7.5倍，并配备100TB高速内存与每秒1.7PB的内存带宽，为AI推理树立全新性能标准。英伟达将AI推理划分为上下文阶段（Context Phase）与生成阶段（Generation Phase）：前者计算密集，需要高吞吐率处理输入；后者则对内存带宽依赖更强，逐个生成token。为此，英伟达推出“分解式推理”架构，由不同硬件分别优化两大环节。 CEO 黄仁勋表示：“Vera Rubin平台标志着AI计算的又一次重大飞跃。正如RTX改变了图形与物理AI，Rubin CPX是首款专为海量上下文AI设计的CUDA GPU，使模型能够一次性推理数百万token的知识。” Rubin CPX性能亮点 Rubin CPX专为加速“上下文阶段”设计，采用单片式芯片架构，具备： 🔹 30 petaflops NVFP4精度算力 🔹 128GB GDDR7内存 🔹 注意力计算速度提升至GB300 NVL72的三倍 🔹 集成视频编解码器与长上下文推理功能据称，这一设计大幅提升视频搜索与生成式视频的效率。 GB300 NVL72刷新MLPerf纪录除了发布新架构，英伟达还公布了MLPerf Inference v5.1基准测试结果。基于Blackwell Ultra架构的GB300 NVL72系统，在Llama 3.1 405B，Whisper等任务中刷新纪录。在6710亿参数的DeepSeek-R1混合专家模型测试中，其单GPU性能较上一代Hopper提升约5倍。这一进步得益于英伟达全栈优化，包括NVFP4低精度加速，TensorRT-LLM库的模型与KV缓存量化，以及针对复杂模型研发的新型并行技术。

英伟达市值破四万亿，AI芯片霸主地位稳固？· 216 条信息

#英伟达 #Rubin CPX #AI推理 #GPU #128GB GDDR7